智能论文笔记

由于学习过程中缺乏安全保证，在网络物理系统中使用加固学习（RL）是具有挑战性的。尽管有各种建议在学习过程中减少不希望的行为，但这些技术中的大多数都需要先前的系统知识，并且其适用性是有限的。本文旨在减少学习过程中不希望的行为，而无需任何先前的系统知识。我们提出动态屏蔽：基于自动机学习的基于模型的安全RL技术的扩展。动态屏蔽技术使用RPNI算法的变体和RL平行构建近似系统模型，并由于学习模型构建的屏蔽而抑制了不希望的探索。通过这种组合，在代理商体验他们之前，可以预见潜在的不安全行动。实验表明，我们的动态盾牌可显着减少训练过程中不希望的事件的数量。

translated by 谷歌翻译

Goal-Aware RSS for Complex Scenarios via Program Logic

Ichiro Hasuo , Clovis Eberhart , James Haydon , Jérémy Dubut , Rose Bohrer , Tsutomu Kobayashi , Sasinee Pruekprasert , Xiao-Yi Zhang , Erik André Pallas , Akihisa Yamada

分类：机器人

2022-07-06

我们引入了责任感敏感安全性（RSS）的目标延长，这是一种基于规则的自动驾驶系统安全保证（ADS）的方法。制定RSS规则保证目标实现 - 除了原始RSS中的避免碰撞外，还需要进行长时间的操纵序列的复杂计划。为了应对复杂性，我们基于程序逻辑引入了一个构图推理框架，其中可以系统地为较小的子赛车制定RSS规则，并将它们组合起来以获取用于较大场景的RSS规则。作为框架的基础，我们介绍了一个程序逻辑DFHL，可满足连续的动态和安全条件。我们的框架介绍了基于DFHL的工作流程，用于导出目标感知RSS规则；我们也讨论其软件支持。我们在安全体系结构中使用RSS规则进行了实验评估。它的结果表明，目标感知RSS确实有效地实现了避免碰撞和目标实现目标。

translated by 谷歌翻译